\section{Случай полной информации}
\setcounter{equation}{0}
 Система описывается уравнением (1),
выбран критерий (3). Хотим найти $u(x(t)):X\rightarrow U$. Для
решения используем метод динамического программирования. Введем
функцию цены. Рассмотрим момент времени i. Исходя из результатов
наблюдения за переменной состояния необходимо определить
управляющий сигнал $u_i$. Заметим, что $u_i$ не зависит от
$x_{i+1}\ldots x_N$. Среднее значение функции потерь можно разбить
на две суммы:
\begin{displaymath}
E\{x_N^TQ_0x_N+\sum_{k=0}^{N-1}\{x_k^TQ_k^{(1)}x_k+u_k^TQ_k^{(2)}u_k\}\}=E\sum_{k=0}^{i-1}\{x_k^TQ_k^{(1)}x_k+u_k^TQ_k^{(2)}u_k\}+
\end{displaymath}
$ +E\{x_N^TQ_0x_N+
\sum_{k=l}^{N-1}\{x_k^TQ_k^{(1)}x_k+u_k^TQ_k^{(2)}u_k\}\}$.\\
Первый член не зависит от $u_i\ldots u_{N-1}$. Для минимизации
функции потерь  по этим переменным достаточно минимизировать
вторые слагаемые. Предположив, что минимум существует, применим
лемму 1:
\begin{displaymath}
\min
E\{x_N^TQ_0x_N+\sum_{k=i}^{N-1}\{x_k^TQ_k^{(1)}x_k+u_k^TQ_k^{(2)}u_k\}\}=E\{V(x,i)\},
\end{displaymath}
где
\begin{displaymath}
V(x,i)=\min_{u_i\ldots u_{N-1}}
E[\{x_N^TQ_0x_N+\sum_{k=i}^{N-1}\{x_k^TQ_k^{(1)}x_k+u_k^TQ_k^{(2)}u_k\}\}|x_i=x].
\end{displaymath}
Используя тот факт, что $u_i x_i$ не зависят от $u_{i+1}
x_{i+1}\ldots u_{N-1} x_N$ заметим, что функцию можно переписать в
виде
\begin{displaymath}
V(x_i,i)=\min_{u_i}E\{x_i^TQ_i^{(1)}x_i+u_i^TQ_i^{(2)}u_i+
\end{displaymath}
\begin{displaymath}
\min_{u_{i+1}}E\{x_{i+1}^TQ_{i+1}^{(1)}x_i+u_{i+1}^TQ_{i+1}^{(2)}x_{i+1}+
\min_{u_{i+2}}E\{\ldots +E\{x_N^TQ_0x_N|x_N\}|x_{N-1}\ldots \}
|x_{i+1} \}|x_i\}.
\end{displaymath}
Аналогично, если рассмотреть момент $i+1$, получим
\begin{displaymath}
V(x_{i+1},i+1)=\min_{u_{i+1}}E\{x_{i+1}^TQ_{i+1}^{(1)}x_{i+1}+u_{i+1}^TQ_{i+1}^{(2)}u_{i+1}+
\end{displaymath}

\begin{displaymath}
+\min_{u_{i+2}}E\{\ldots +E\{x_N^TQ_0x_N|x_N\}\ldots \}|x_{i+1}\}.
\end{displaymath}
Получили следующие функциональное уравнение Беллмана:
\begin{displaymath}
V(x,i)=\min_{u_i}E\{x_i^TQ_i^{(1)}x_i+u_i^TQ_i^{(2)}u_i+V(x_{i+1},i+1)|x_i=x\}=
\end{displaymath}

\begin{displaymath}
=\min_{u_i}
\{x^TQ_i^{(1)}x+u_i^TQ_i^{(2)}u_i+E\{V(x_{i+1},i+1)|x_i=x\}\}.
\end{displaymath}
При $i=N$ будем иметь
\begin{displaymath}
V(x,N)=\min_u E(x_N^TQ_0x_N|x=x_N)=x^TQ_0x,
\end{displaymath}
что представляет начальное условие для уравнения Беллмана.\newpage
{\bf Решение уравнения Беллмана.}\\
Докажем, что функция потерь имеет вид
\begin{displaymath}
V(x,i)=x^TP_ix+\ae_i,
\end{displaymath}
где $P_i$ - неотрицательно определенная матрица, $\ae_i\geq0$.\\
Для $i=N$ утверждение очевидно. Предположим, что представление
верно для $i+1$ и докажем, что оно верно для $i$. Пусть
\begin{displaymath}
V(x_{i+1},i+1)=x_{i+1}^TP_{i+1}x_{i+1}+\ae_{i+1}.
\end{displaymath}
Уравнение динамики дает
\begin{displaymath}
x_{i+1}=A_ix_i+B_iu_i+w_i.
\end{displaymath}
Таким образом $x_{i+1}$ при фиксированном $x_i=x$ имеет нормальное
распределение со средним $Ex_{i+1}=A_ix+B_iu$ и ковариационной
матрицей $M_i$. Используя лемму 3, получим:
\begin{displaymath}
E\{V(x_{i+1},i+1)|x\}=(A_ix+B_iu_i)^TP_{i+1}(A_ix+B_iu_i)+trP_{i+1}M_i+\ae_{i+1}.
\end{displaymath}
Подставим это выражение в уравнение Беллмана
\begin{displaymath}
V(x,i)=\min_{u_i}\{x^TQ_i^{(1)}x+u_i^TQ_i^{(2)}u_i+(A_ix+B_iu_i)^TP_{i+1}(A_ix+B_iu_i)+
\end{displaymath}
\begin{displaymath}
+trP_{i+1}M_i+\ae_{i+1}\}=\{\textrm{дополним до полного
квадрата}\}=
\end{displaymath}
\begin{displaymath}
=\min_{u_i}\{x^T(Q_i^{(1)}+A_i^TP_{i+1}A_i-L^T(Q_i^{(2)}+B_i^TP_{i+1}B_i)L)x+
\end{displaymath}
\begin{displaymath}
+(u_i+Lx)^T(Q_i^{(2)}+B_i^TP_{i+1}B_i)(u_i+Lx)+trP_{i+1}M_i+\ae_{i+1}\}=
\end{displaymath}
\begin{displaymath}
=x^T(Q_i^{(1)}+A_i^TP_{i+1}A_i-L^T(Q_1^{(2)}+B_i^TP_{i+1}B_i)L)x+trP_{i+1}M_i+\ae_{i+1},
\end{displaymath}
где
\begin{equation}
L=L_i=(Q_i^{(2)}+B_i^TP_{i+1}B_i)^{-1}B_i^TP_{i+1}A_i,
\end{equation}
здесь матрица существует, так как $Q_i^{(2)}$ положительно
определена.\\
Минимум достигается при
\begin{displaymath}
u_i=-L_ix,
\end{displaymath}
а оптимальная стратегией является линейной обратной связью по всем
переменным состояния. Функциональное уравнение представимо в виде:
\begin{displaymath}
V(x,i)=x^TP_ix+\ae_i,
\end{displaymath}
где
\begin{equation}
P_i=A_i^TP_{i+1}A_i+Q_i^{(1)}-L_i^T(q_i^{(2)}+B_iP_{i+1}B_i)L_i\\
\end{equation}
\begin{displaymath}
\ae_i=\ae_{i+1}+trP_{i+1}M_i,
\end{displaymath}
$P_N=Q_0, \ae_N=0$.\\
Для того, чтобы закончить доказательство, покажем, что $P_i$ -
неотрицательно определенная матрица. Подставим (1) в (2) вместо
$L_i^T$:
\begin{displaymath}
P_i=A_i^TP_{i+1}(A_i-B_iL_i)+Q_i^{(1)}=(A_i-B_iL_i)^TP_{i+1}A_i+Q_i^{(1)},
\end{displaymath}
\begin{displaymath}
(Q_i^{(2)}+B_i^TP_{i+1}B_i)L_i=B_i^TP_{i+1}A_i,
\end{displaymath}
\begin{displaymath}
Q_i^{(2)}L_i=B_i^TP_{i+1}(A_i-B_iL_i).
\end{displaymath}
Умножая последнее равенство на $L^T$ и вычитая, имеем
\begin{equation}
P_i=(A_i-B_iL_i)^TP_{i+1}(A_i-B_iL_i)+L_i^TQ_i^{(2)}L_i+Q_i^{(1)},
\end{equation}
то есть если $P_{i+1}$ неотрицательно определена, то $P_i$ тоже
неотрицательно определена.\\
Минимум $V(x,N)$ всегда существует: $V(x,N)=x^TQ_0x$. Полученная
рекуррентная схема показывает, что минимум $V(x,i) \forall
i=0\ldots N-1$ тоже существует, так как все функции являются
квадратичными. Справедлива
\begin{theorem}
Пусть допустимые стратегии таковы, что $u_i$ есть функция от
$x_i,i$(полная информация). Пусть $Q_i^{(2)}, Q_i^{(1)}$ -
положительно и неотрицательно определенные матрицы соответственно,
тогда допустимая стратегия минимизации среднего значения функции
потерь является линейной обратной связью по всем переменным
состояния $u_i=-L_ix_i$ при
\begin{displaymath}
L_i=(Q_i^{(2)}+B_i^TP_{i+1}B_i)^{-1}B_i^TP_{i+1}A_i,
\end{displaymath}
где $P_i$ определяется рекуурентным  уравнением (3) с начальным
условием $P_N=Q_0$. Минимальное значение функции потерь
\begin{displaymath}
\min
E\{x^T_NQ_0X_N+\sum_{k=0}^{N-1}x_k^TQ_k^{(1)}x_k+u_k^TQ_k^{(2)}u_k\}=
\end{displaymath}
\begin{displaymath}
=E(V(x,0)|x=x_0)=m^TP_0m+trP_0S_0+\sum_{k=0}^{N-1}trP_{k+1}M_k.
\end{displaymath}
\end{theorem}



место для схемы
\\

{\bf Замечания.} \\
1) Оптимальная стратегия аналогична стратегии в детерминированном
случае при отсутствии помех. \\
2) Если $Q_i^{(2)}$ нулевая и $Q_i^{(2)}B_i^TP_{i+1}B_i$ не
является положительно определенной, то закон управления ,
минимизирующий среднее значение функции потерь, определяется
неоднозначно.\\
3) Члены $m^TP_0m+trP_0S_0$ зависят от функции распределения
начального состояния. Члены $\sum trP_kM_k$ обусловлены помехой
$w_i$, воздействующей на систему.\\
{\bf Задача.} Дана система
\begin{displaymath}
x_{i+1}=ax_i+bu_i+w_i
\end{displaymath}
с функцией потерь $l=\sum_{k=1}^Nx_k^2$. Допустимые стратегии
$u_i$: $u_i$ - функция от $x_i$. Определить стратегию, которая
минимизирует средние потери.